Python - urlparse 模块学习

python2 中的urlparse模块已经整合进了python3 中的 urllib.parse模块
这里使用的python2 进行模块学习

urlparse模块简介

urlparse模块主要是把url拆分为6部分,并返回元组。并且可以把拆分后的部分再组成一个url。主要有函数有urljoin、urlsplit、urlunsplit、urlparse等。

  • urlparse.urlparse
    将url分为6个部分,返回一个包含6个字符串项目的元组:协议、位置、路径、参数、查询、片段。
    其中
    scheme协议
    netloc域名服务器
    path相对路径
    params参数
    query查询的条件
    fragment是拆分文档中的特殊片段

图片.png

  • urlparse.urlsplit
    和urlparse差不多,将url分为5部分,返回一个包含5个字符串项目的元组:协议、位置、路径、查询、片段。
    图片.png

  • urlparse.urljoin
    将相对的地址组合成一个url,对于输入没有限制,开头必须是http://,否则将不组合前面。

    urljoin主要是拼接URL,它以base作为其基地址,然后与url中的相对地址相结合组成一个绝对URL地址。函数 urljoin 在通过为URL基地址附加新的文件名的方式来处理同一位置处的若干文件的时候格外有用。需要注意的是,如果基地址并非以字符/结尾的话,那么URL基地址最右边部分就会被这个相对路径所替换。如果希望在该路径中保留末端目录,应确保URL基地址以字符/结尾。
    图片.png

参考链接:
https://www.cnblogs.com/cemaster/p/6435711.html
https://www.cnblogs.com/xie-kun/p/7858358.html